In [29]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import mglearn
%matplotlib inline
In [2]:
from sklearn.datasets import load_iris
iris_dataset = load_iris()
In [5]:
print("iris_dataset의 key : \n{}".format(iris_dataset.keys()))
In [9]:
print(iris_dataset['DESCR'])
In [14]:
print("타겟의 이름 : {}".format(iris_dataset['target_names']))
print("특성의 이름 : {}".format(iris_dataset['feature_names']))
print("data 타입 : {}".format(type(iris_dataset['data'])))
print("data 크기 : {}".format(iris_dataset['data'].shape))
150개의 Sample Data, 4개의 Feature
In [15]:
print("data의 처음 다섯 행 :\n{}".format(iris_dataset['data'][:5]))
In [17]:
# target part
print("target의 타입 : {}".format(type(iris_dataset['target'])))
print("target의 크기: {}".format(iris_dataset['target'].shape))
print("Target : \n{}".format(iris_dataset['target']))
In [21]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
iris_dataset['data'], iris_dataset['target'], random_state=0, test_size=0.33)
In [23]:
print("X_train 크기 : {}".format(X_train.shape))
print("y_train 크기 : {}".format(y_train.shape))
In [24]:
print("X_test 크기 : {}".format(X_test.shape))
print("y_test 크기 : {}".format(y_test.shape))
In [25]:
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
In [30]:
pd.plotting.scatter_matrix(iris_dataframe, c=y_train, figsize=(15, 15), marker='o', hist_kwds={'bins':20}, s=60,
alpha=.8, cmap=mglearn.cm3)
Out[30]:
In [31]:
# 3개의 클래스가 측정값에 따라 잘 구분되는 것을 확인할 수 있습니다
In [32]:
# knn 알고리즘 : 가장 가까운 k개의 이웃을 찾는다!
In [33]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)
In [34]:
knn
Out[34]:
In [35]:
knn.fit(X_train, y_train)
Out[35]:
In [36]:
X_new = np.array([[5, 2.9, 1, 0.2]])
print("X_new.shape: {}".format(X_new.shape))
In [39]:
prediction = knn.predict(X_new)
print("예측 : {}".format(prediction))
print("예측한 타깃의 이름 : {}".format(iris_dataset['target_names'][prediction]))
In [41]:
y_pred = knn.predict(X_test)
print("테스트 세트에 대한 예측값:\n {}".format(y_pred))
In [42]:
print("테스트 세트의 정확도 : {:.2f}".format(np.mean(y_pred == y_test)))
In [43]:
# knn.score 메서드로도 정확도 계산 가능!
print("테스트 세트의 정확도 : {:.2f}".format(knn.score(X_test, y_test)))
In [ ]: